智能论文笔记

Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding

Erica K. Shimomoto , Edison Marrese-Taylor , Hiroya Takamura , Ichiro Kobayashi , Hideki Nakayama , Yusuke Miyao

分类：计算机视觉 | 自然语言处理

2022-09-26

本文探讨了时间视频接地（TVG）的任务，在该任务中，给定未修剪的视频和查询句子，目标是在提供的自然语言查询描述的视频中识别和确定动作实例的时间界。最近的作品通过使用大型预训练的语言模型（PLM）直接编码查询来解决此任务。但是，很难隔离改进的语言表示的影响，因为这些作品还提出了视觉输入的改进。此外，这些PLM大大增加了训练TVG模型的计算成本。因此，本文研究了PLM在TVG任务中的影响，并根据适配器评估了NLP参数效率培训替代方案的适用性。我们将流行的PLM与选择现有方法和测试不同的适配器相结合，以减少其他参数的影响。我们在三个具有挑战性的数据集上的结果表明，当TVG模型对该任务进行微调时，可以从PLM中受益匪浅，并且适配器是完全微调的有效替代方法，即使它们并不适合我们的任务。具体而言，适配器有助于节省计算成本，从而使PLM集成在较大的TVG模型中，并提供与最先进模型相当的结果。最后，通过对TVG中不同类型的适配器进行基准测试，我们的结果阐明了哪种适配器最适合每个研究的情况。

translated by 谷歌翻译

我们提出了Locommer，一种基于变压器的视频接地模型，其在恒定的存储空间中运行，无论视频长度如何，即帧数。 Locommer专为任务而设计，在那里需要处理整个长视频，并在其核心贴上两个主要贡献。首先，我们的模型包含一种新的采样技术，将输入要素序列分成固定数量的部分，并使用随机方法选择每个部分的单个特征，这允许我们获得代表视频内容的特征样本集在手中的任务，同时保持内存占用空间。其次，我们提出了一种模块化设计，将功能分开，使我们能够通过监督自我关注头来学习归纳偏差，同时还有效利用预先接受训练的文本和视频编码器。我们在相关的基准数据集中测试我们的建议，以进行视频接地，表明该表现形式不仅可以实现优异的结果，包括在YouCookii上的最先进的性能，也可以比竞争对手更有效，并且它一直有效在平均工作的情况下，最新工作的表现，均值较大，最终导致Chardes-STA的新的最先进的性能。

translated by 谷歌翻译

道路车辙是严重的道路障碍，可能导致早期和昂贵的维护成本的道路过早失败。在过去的几年中，正在积极进行使用图像处理技术和深度学习的道路损害检测研究。但是，这些研究主要集中在检测裂缝，坑洼及其变体上。很少有关于探测道路的研究。本文提出了一个新颖的道路车辙数据集，其中包括949张图像，并提供对象级别和像素级注释。部署了对象检测模型和语义分割模型，以检测所提出的数据集上的道路插道，并对模型预测进行了定量和定性分析，以评估模型性能并确定使用拟议方法检测道路插道时面临的挑战。对象检测模型Yolox-S实现了61.6％的Map@iou = 0.5，语义分割模型PSPNET（RESNET-50）达到54.69，精度为72.67，从而为将来的类似工作提供了基准的准确性。拟议的道路车辙数据集和我们的研究结果将有助于加速使用深度学习发现道路车辙的研究。

translated by 谷歌翻译

数据文章介绍了路线损坏数据集RDD2022，其中包括来自六个国家，日本，印度，捷克共和国，挪威，美国和中国的47,420条道路图像。图像已注释了超过55,000个道路损坏的实例。数据集中捕获了四种类型的道路损坏，即纵向裂缝，横向裂纹，鳄鱼裂纹和坑洼。设想注释的数据集用于开发基于深度学习的方法以自动检测和对道路损害进行分类。该数据集已作为基于人群传感的道路伤害检测挑战（CRDDC2022）的一部分发布。 CRDDC2022挑战邀请了来自全球的研究人员提出解决方案，以在多个国家 /地区自动道路损害检测。市政当局和道路机构可以使用RDD2022数据集，并使用RDD2022培训的模型用于低成本自动监测道路状况。此外，计算机视觉和机器学习研究人员可能会使用数据集对其他类型的其他基于图像的应用程序（分类，对象检测等）进行不同算法的性能。

translated by 谷歌翻译